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摘要 : [目的 /意义 ] 专 利 相 似 度 检测 (Similarity Measurement ) 可 从 宏观 上 辅助 制定 国家 创新 战略 规划 ,发 
现 国内 外 的 热点 及 应 对 其 他 国家 的 专利 流 谍 ,从 微观 上 为 专利 发 明 人 、 专 利 审查 员 、 专 利 权 人 提供 辅助 支撑 。 
[方法 /过 程 ] 提 出 基于 深度 学 习 的 Doc2Vec 专利 相似 度 分 析 方 法 ,基于 未 进行 清洗 的 专利 语料库 ,采用 深度 学 
习 的 Doc2Vec 模型 ,随机 挑选 了 专利 ,研究 了 专利 相似 度 检测 问题 ,并 和 传统 的 相似 度 检测 模型 进行 对 比 研究 。 
[结果 /结论 ] 实验 结果 表明 ,基于 深度 学 习 的 Doc2Vec 模型 和 TF-IDF 模型 对 于 处 理 不 做 数据 清洗 的 专利 语 料 
的 结果 有 相近 性 ,该 方法 对 分 析 人 员 的 专利 领域 知识 要 求 较 低 ,不 需要 对 专利 数据 进行 基于 专利 领域 知识 的 数 
据 清洗 ,同时 可 为 专利 侵权 、 专 利 查 新 提供 新 的 智能 工具 支撑 ,降低 研究 门槛 和 工作 量 ,提升 研究 效率 。 
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专利 相似 度 检测 在 宏观 和 微观 上 有 很 重要 的 人 研究 
意 认 :从 宏观 上 来 说 ,一 方面 分 析 专 利 相似 度 ,能 辅助 
制 殉 国家 创新 战略 规划 ,发 现 国内 外 的 热点 。 这 方面 ， 
S. Mukherjee 等 六 利用 1945 年 至 2013 年 的 28 426 345 
篇 论文 和 1950 年 至 2010 年 的 5 382 833 篇 美国 专利 对 
比分 析 ,提出 了 研究 热点 的 定义 并 对 比 了 不 同 阶段 的 
研究 热点 及 趋势 演化 。 另 一 方面 ,发 达 国 家 经 常 利 有 
知名 产 权 对 发 展 中 国家 进行 不 正当 起 诉 ,$S，Padm 
nabkun 等 汪 分 析 了 发 达 国 家 利用 HPV 相关 专利 在 
度 进行 起 诉 的 相关 流程 ,我国 作为 发 展 中 国家 ,也 需要 
有 相关 的 应 对 措施 , 王 日 芬 等 研究 了 目前 面向 专利 
预警 的 专利 文献 相似 度 研 究 现 状 。 从 微观 上 来 说 , 专 
利 的 发 明 人 往往 是 某 一 细 分 学 科 的 技术 专家 ,撰写 发 
明 专 利 的 目的 是 利用 新 技术 对 于 所 在 细 分 学 科 的 新 产 
品 方法 进行 保护 ,因此 很 难 撰写 交叉 学 科 的 发 明 专利 。 
另 一 方面 ,专利 审查 员 往 往 也 是 某 一 细 分 学 科 的 技术 
专家 ,专利 审查 员 进 行 专利 审查 时 如 果 遇 到 交叉 学 科 
的 专利 也 往往 很 难 快速 审查 ,需要 花费 大 量 时 间 对 不 
同学 科 的 知识 进行 学 习 。 当 前 专利 文本 相似 度 检 测 的 
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主流 方法 仍然 是 基于 专利 审查 员 的 人 工 定 义 词 库 后 进 
行 词 频 检测 ,需要 较 高 的 专业 背景 或 花费 大 量 的 时 间 
精力 去 了 解 相关 专利 领域 的 知识 。 而 最 近 几 年 ,深度 
学 习 在 文本 相似 度 检 测 等 领域 得 到 了 广泛 的 应 用 , 专 
利 也 是 一 种 特别 的 文本 ,也 适用 于 采用 深度 学 习 的 方 
法 开展 研究 。 本 文采 用 深度 学 习 的 新 技术 ,以 美国 专 
利 为 例 ,研究 了 专利 相似 度 检 测 问题 。 


2 研究 现状 


2.1 专利 文件 结构 及 相似 度 分 析 流 程 

本 文 的 研究 对 象 是 专利 文件 。 以 美国 专利 文件 为 
例 ,美国 专利 的 结构 主要 分 为 专利 名 、 摘 要 ,权利 要 求 
书 说明书 .引文 , 见 图 159 。 

基于 这 样 的 结构 树 , 目前 专利 相似 度 分 析 研究 流 
程 见 图 2"。 

通常 做 法 中 ,不 同 的 专利 相似 度 分 析 流 程 的 差别 
在 于 数据 源 选择 策略 、 数 据 源 分 析 算 法 等 。 这 类 相似 
度 分 析 需 要 专利 领域 的 技术 专家 具备 多 种 专利 的 领域 
知识 。 在 数据 源 的 选择 上 ,主要 基于 专利 数据 库 和 其 
他 数据 库 跨 库 对 比 和 专利 数据 库 自身 分 析 两 种 方法 ， 


* 本 文系 国家 自然 科学 基金 青年 项 目 “ 面 向 专利 文本 中 实体 关系 抽取 的 远程 监督 方法 研究 "(项 目 编号 :71704169 ) 和 国家 自然 科学 基金 青年 
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T— 图 1 专利 结构 树 示意 图 中 
和 丽 和 全 [用 了 全 机 避 用 用 才 枯 [4 


和 信息 专家 定义 专利 地 图 的 目的 和 范围 
设计 、 选 择 数据 库 
。 ”定义 搜索 策略 


编写 搜索 算法 


数据 清洗 和 数据 管理 
合并 数据 集 
定义 错误 容忍 度 
删除 不 相关 文档 


利用 附加 字段 对 数据 集合 进行 掉 成 
并 进行 人 工 编码 调整 


[eS 高 度 有 序 的 分 析 
描述 统计 结果 可 视 化 趋势 i 


图 2 专利 相似 度 分 析 流 程 吕 
注 :本 图 2 参照 文献 [5] 中 图 1 绘制 ,引用 自 参考 文献 [5 ] 


在 数据 源 算法 上 主要 分 为 专利 数据 清洗 算法 和 数据 搜 
索 对 比 算 法 两 类 。 通 过 专利 自身 数据 分 析 主 要 是 找到 
专利 间 的 各 种 关系 ,如 研究 专利 引用 网 络 的 引用 聚 类 
关系 。 通 过 专利 和 其 他 业务 数据 库 的 跨 业 务 数据 库 对 
比 是 为 了 方便 专利 领域 专家 进行 人 工分 析 , 见 图 3。 
2.2 专利 相似 度 的 研究 对 象 

研究 专利 相似 度 分 为 基于 专利 关联 其 他 业务 数据 
库 进行 研究 和 基于 专利 文件 的 自身 数据 库 继续 研究 。 

(1) 专 利 关联 其 他 业务 数据 库 : 在 这 个 领域 ,如 S. 
Mukherjee 等 ”通过 对 比 论 文 数据 库 和 专利 数据 库 来 


专利 自身 数 
据 库 的 分 析 


清洗 算法 
搜索 算法 


图 3 专利 相似 度 分 析 主 要 方法 


研究 专利 和 论文 技术 一 致 性 和 热度 问题 J. A. Smith 
等 中 通过 对 比 专利 发 明 人 的 论文 分 布 来 对 比 研究 专利 
质量 。 李 莉 等 ”通过 对 比 中 文 专利 和 英文 专利 来 研究 
专利 词语 的 消 歧 问题 。 娄 岩 等 "通过 专利 数据 和 商业 
数据 的 对 比分 析 来 研究 专利 的 蔡 代 性 方案 。 跨 库 对 比 
研究 相似 度 问 题 的 优势 在 于 原理 简单 ,能 得 出 可 论证 
的 结论 ,但 是 跨 库 对 比 研究 的 难度 是 要 处 理 大 量 的 不 
同 的 数据 库 , 并 且 需 要 有 不 同行 业 的 相关 领域 知识 和 
洞察 力 。 

(2) 专 利 自身 数据 库 :基于 图 1 的 专利 结构 树 , 主 
要 的 数据 选择 如 表 1 所 示 : 

这 类 研究 一 般 基 于 指定 研究 领域 的 同一 类 型 的 文 
本 进行 分 析 , 如 陈云 伟 等 ”通过 研究 专利 引用 网 络 ,来 
判断 专利 发 明 人 之 间 的 合作 情况 ; 另 一 方面 也 有 将 专 
利 结构 中 的 不 同类 型 的 数据 进行 分 析 的 ,如 王 饮 等 " 
基于 分 类 号 和 引文 的 专利 相似 度 测量 。 朱 硕 等 … 将 
专利 的 文本 数据 和 图 像 数据 进 行 对 比分 析 ,基于 形状 
语义 进行 外 观 专利 图 像 的 检索 。 利 用 专利 自身 数据 库 
的 分 析 方 法 更 依赖 于 研究 者 对 专利 行业 的 经 验 ,但 是 
相对 于 跨 业 务 数据 库 对 比 研 究 而 言 ,处 理 的 数据 量 会 
更 小 更 容易 。 

2.3 ”基于 领域 知识 的 研究 方法 

常用 的 相似 度 检测 算法 需要 基于 专利 领域 知识 进 
行 数据 清洗 ,数据 清洗 的 主要 目的 是 除 品 ,对 同义词 进 
行 消除 歧义 ,降低 数据 处 理 的 计算 维度 ,生成 对 应 的 实 
体 表 示 ,如 王 晋 等 ”利用 最 大 信 模 型 对 专利 文本 生成 
实体 。 但 是 数据 清洗 本 身 并 不 是 简单 的 进行 无 效 词 表 
删除 , 自然 语言 处 理 中 的 一 词 多 义 和 多 词 同 义 本 身 就 
很 复杂 。 从 应 用 的 场景 来 说 ,专利 审查 员 不 一 定 是 行 
业 专 家 ,但 是 对 专利 规则 理解 清洗 ,因此 需要 专利 发 明 
人 将 专利 的 语言 尽 可 能 的 补充 相关 解释 说 明 以 方便 专 
利 审查 员 理 解 ,如 陈 亮 等 ”利用 Knowledge Graph 对 
专利 隐 式 实体 进行 补 全 。 在 词义 歧义 消除 方面 ,一 般 
采用 传统 的 自然 语言 处 理 方法 ,如 利用 WordNet 相关 
技术 分 析 词 义 上 下 位 关系 消除 歧义 或 者 利用 词法 、 词 
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表 1 基于 专利 结构 树 的 分 析 


通过 专利 地 图 的 研究 问题 专利 地 图 分 析 类 型 分 析 依 据 
利 在 指定 技术 、 产 品 ,领域 的 覆盖 面 。 技术 专利 地 图 专利 分 类 分 析 / 权 利 要 求 分 析 / 技 术 关键 词 
。 技 术 专利 地 图 的 对 比分 析 。 搜 索 优先 权 。 争 议 专利 
。 专 利 授权 通过 率 分 析 。 专 利 申请 书 
。 国 家 和 来 源 分 析 
。 专 利 转让 人 /发 明 人 
专利 权 如 何 影响 了 公司 或 者 机 构 。 机 构 投资 组 合 分 析 专利 转让 人 /发 明 人 
。 发 明 人 投资 租房 分 析 。 和 争议 专利 
。 专 利 性 能 对 比 。 专 利 申请 书 
。 竞 争 者 分 析 。 国 家 和 来 源 分 析 
。 行 业 分 析 。 专 利 分 类 分 析 / 权 利 要 求 类 型 分 析 
不 同 国家 或 者 地 域 的 专利 权 地 图 情况 。 区 域 创新 指数 地 理 位 置 区 域 分 析 
。 创 新 聚 类 分 析 。 专 利 分 类 分 析 / 权 利 要 求 类 型 分 析 
。 外 来 技术 分 析 。 争 议 专利 
。 国 际 专利 树 分 析 。 专 利 申请 书 
。 基 于 时 间 的 国家 地 区 的 专利 演化 分 析 。 国 家 和 来 源 分 析 
。 专 利 转让 人 /发 明 人 
要 或 者 最 优 价值 的 专利 。 权 利 要 求 结构 。 专 利 号 /权利 要 求 范围 
。 文 献计 量 分 析 。 前 置 引用 
。 诉 讼 分 析 。 专 利家 族 
。 专 利 诉讼 
。 专 利 维护 费 缴纳 状况 
专利 之 间 的 关系 。 文 献计 量 分 析 。 前 置 引用 /后 置 引 
。 网 络 引用 分 析 。 关 键 记 
。 语 义 相似 度 分 析 。 共 同 发 明 人 
。 专 利 转让 人 /发 明 人 


。 专 利 网 络 统计 分 析 


刊 在 创新 或 者 竞争 领域 产生 怎样 的 影响 。 专利 数 分 析 
。 专利 权利 要 求 分 析 
。 专利 密度 分 析 
。 统计 模型 分 析 


。 权 利 要 求 范 围 
e 争 议 专利 
。 专 利 分 类 分 析 / 权 利 要 求 类 型 
。 专 利 申请 书 
。 国 家 和 来 源 分 析 

。 专 利 转让 人 /发 明 人 


注 :本 表 1 参照 文献 [5 ] 中 表 1 绘制 ,引用 自 参考 文献 [5 ] 
义 焉 成 属于 词 库 消除 歧义 ,如 姜 利 雪 等 "利用 语义 角 
色 答 成 专利 术语 词 库 。 另 外 ,由 于 不 同 语言 本 身 的 词 
法 (守法 的 差异 ,需要 将 专利 的 句 式 变 简 单 ,方便 机 器 
和 人 工 的 进一步 分 析 , 这 类 主要 采用 的 方法 是 SAO 方 
法 提取 ,如 许 海 云 等 5 在 基于 SAO( Subject Action Ob- 
ject) 提取 算法 对 专利 句 式 分 析 进 行 对 比 研究 。 而 化 齐 
等 5 在 SAO 的 基础 上 基于 句法 分 析 , 结 合 SPT (the 
Shortest Path enclosed Tree ) 结构 进行 改进 。 

数据 分 析 的 主要 目的 是 在 数据 清洗 的 基础 上 , 利 
用 相关 算法 进行 相似 度 分 析 ,通过 生成 专利 实体 建立 
专利 地 图 数据 库 , 将 新 专利 和 已 经 建立 好 的 数据 库 对 
比 判断 其 相似 度 和 新 颖 性 。 目 前 国内 专利 审查 员 主 要 
用 的 是 国家 知识 产权 局 的 专利 检索 与 服务 系统 (S 系 
统 ) ,相关 检索 主要 是 基于 VSM ( Vector Space Model ) 
模型 ,检索 后 通过 人 工 判断 词语 位 置 和 字面 相似 度 来 
判断 技术 方案 的 创新 性 !”1 。 该 方案 用 起 来 原理 很 简 
单 ,但 是 需要 大 量 的 专利 审查 员 进 行人 工 干预 。 除 了 
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VSM 模型 ,比较 常用 的 模型 还 有 LSA ( Latent Semantic 
Analysis ) 模 型 ,LDA ( Latent Dirichlet Allocation ) 模型 。 
这 几 类 模型 对 比 相似 度 的 原理 大 致 相同 ,都 是 将 专利 
采用 词 袋 模型 ,将 专利 的 每 个 词 进行 打分 计算 词 的 权 
重 ,常用 的 打分 策略 是 TF IDF (Term Frequency -Inverse 
Document Frequency ) 算 法 ,然后 将 一 篇 专利 按照 词 频 
和 根据 TF -IDF 算法 打分 建立 VSM 模型 ,然后 对 比 不 
同 专利 文件 的 在 VSM 模型 中 的 癌 量 夹 角 来 对 比 相似 
度 ,由 于 VSM 模型 中 的 向 量 分 布 太 过 稀 玖 ,因此 采用 
LSA 模型 进行 SVD( Singular Value Decomposition ) 分 解 
降 维 ,如 果 考 虑 的 主题 (Topic) 因素 , 则 采用 LDA 模型 
利用 主题 进行 降 维 。 如 陈 亮 等 ”利用 LDA 模型 通过 
研究 专利 实体 来 判断 专利 演化 过 程 中 主题 相似 度 。 雇 
列 法 等 ”对 比 了 LDA 模型 和 VSM 模型 在 专利 主题 相 
似 度 分 析 的 正确 率 和 召回 率 。 

尽管 VSM 模型 ,LSA 模型 ,LDA 模型 应 用 广泛 , 相 
对 成 熟 ,但 是 对 结果 进行 二 次 分 析 仍 然 依 赖 于 专利 分 
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析 人 员 的 领域 知识 ,耗费 大 量 人 工 。 
2.4 基于 深度 学 习 的 研究 方法 
针对 专利 相似 度 分 析 的 专利 领域 知识 需要 大 量 专 
业 人 才 的 问题 ,本 文 提出 另 一 种 研究 思路 , 即 不 基于 领 
域 知识 的 研究 方法 而 是 基于 深度 学 习 的 研究 方法 。 
这 种 新 方法 的 提出 主要 归功 于 最 近 几 年 神经 网 络 
和 深度 学 习 相关 技术 的 成 熟 。 神 经 网 络 方法 和 传统 的 
自然 语言 处 理 的 方法 最 大 的 区 别 是 模拟 人 脑 的 树 触 和 
轴 罕 功能 , 即 信息 通过 激活 函数 判断 结果 后 传递 学 习 。 
而 深度 学 习 方 法 在 传统 神经 网 络 方法 上 模拟 人 脑 神经 
细胞 处 理 信息 时 的 功能 无 差异 性 ,能 够 对 训练 数据 进 
行 分 片 ,如 广泛 应 用 于 图 像 识别 的 卷 积 神经 网 。 同 时 
采用 不 同 的 分 类 器 对 同一 分 片 的 数据 进行 不 同 分 类 的 
学 对 ,最 后 将 不 同 分 片 的 学 习 结果 进行 合并 。 在 专利 
相 怖 度 分 析 领 域 ,相关 学 者 引入 了 神经 网 络 的 相关 算 
法 进行 相似 度 研究 ,尤其 是 无 监督 学 习 , 武 玉英 等 
提纲 了 基于 自 组 织 神经 网 络 SOM ( Self Organization 
MSD 进行 训练 ,通过 训练 生成 关键 词 和 专利 权重 的 矩 
阵 进行 专利 相似 度 计算 和 侵权 检测 。 许 侃 等 ”利用 
深度 学 习 (Deep Learning) 中 的 Word2Vec 框架 对 专利 
区 本 进行 训练 ,通过 训 率 判断 专利 领域 词语 的 相似 度 。 


好 采 用 深度 学 习 相关 算法 消除 歧义 ,如 王政 炎 等 ” 


利 遍 Word2vec 框架 进行 词义 消 歧义 。 神 经 网 络 相关 
的 寿 究 方法 相对 而 言 ,能 减少 人 工 干 预 ,另外 训练 过 程 
中 给 于 不 受 传统 的 自然 语言 处 理 中 的 相关 约束 ,计算 
效 罕 均 有 很 大 提升 。 

"三 过 去 常用 的 自然 语言 处 理 的 方法 更 类 似 人 工分 类 
和 利用 数学 模型 消除 噪音 提高 精准 度 ,而 神经 网 络 的 
方法 ,尤其 是 深度 学 习 的 方法 ,更 类 似 事先 不 约定 业务 
模型 ,利用 神经 网 络 去 生成 模型 ,发 现 其 中 规律 。 尽管 
此 类 方法 的 进一步 优化 需要 相关 研究 者 结合 领域 知识 
利用 传统 的 自然 语言 处 理 方法 进行 加 工 吕 。 本 文 的 相 
关 创新 也 是 采用 不 基于 领域 知识 的 研究 方法 而 是 基于 
深度 学 习 的 研究 方法 。 本 文 基 于 Doc2Vec 的 模型 ， 
Doc2Vec 是 Word2Vee 的 模型 ,不 过 在 训练 词 向 量 的 过 
程 中 输入 层 增 加 了 段落 矩阵 。Doc2Vec 更 适用 于 处 
理 专利 文本 因为 适用 于 段落 ,比如 处 理 专利 的 摘要 。 


3 ”实验 设计 及 结果 分 析 
3.1 实验 技术 路 线 

本 实验 采用 的 理论 基础 是 假设 与 假设 验证 原则 ， 
统计 法 原则 和 对 照 与 实验 对 照 原则 。 本 文 的 假设 前 提 
是 不 采用 基于 专利 领域 知识 进行 数据 清洗 ,而 采用 深 


度 学 习 的 Doc2Vec 模型 ,然后 结合 传统 的 TFIDF 模型 、 
LSA 模型 和 LDA 模型 ,对 比 专利 相似 度 检测 结果 , 找 
到 相近 性 。 具 体 来 说 , 先 通 过 训练 生成 各 个 模型 文件 
和 检索 文件 ,然后 深度 学 习 模 型 作为 传统 模型 的 实验 
对 照 组 ,利用 TFIDF 模型 、LSA 模型 和 LDA 模型 和 
Doc2Vec 模型 进行 对 照 。 先 随机 抽出 一 组 专利 进行 分 
别 对 照 分 析 , 然 后 得 出 假设 的 结论 ,再 随机 进行 另 一 组 
专利 重复 实验 验证 假设 ,由 于 实验 时 验证 规律 时 需要 
加 多 的 对 比 , 因 此 统计 的 时 候选 取 100 项 进行 统计 ,分 
析 其 结果 并 验证 规律 。 

3.2 实验 环境 及 准备 

本 文 主要 利用 Gensim 的 框架 进行 实验 ,实验 代 
但 基于 Python 2.7. 12 ,采用 的 数据 库 为 MariaDB 数据 
库 ,数据 库 版 本 为 10.1. 21 ,整个 实验 代码 基于 Censim 
框架 3.0.0 ,主要 的 开发 环境 为 Ubuntu Linux v16 ,64 位 
操作 系统 ,处 理 器 为 Intel 的 16 核 处 理 器 ,运行 的 内 存 
为 64G。 

本 人 研究 的 语 料 首先 下 载 了 美国 专利 局 (USPTO ) 
2015 年 1 月 1 日 至 2017 年 8 月 1 日 的 专利 数据 ,共计 
3 044 956 条 专利 数据 ,并 且 将 其 导入 到 数据 库 。 将 这 
些 专利 的 专利 号 和 摘要 保留 ,生成 由 专利 号 和 对 应 的 
专利 摘要 构成 的 CSV 文本 语 料 文件 ,其 数据 结构 如 图 
4 所 示 : 


de 


国 pat_simple_abstract.txt 2 
lnumber abstract 
2 6836899 A napkin holder formed of two pairs of magnel 
3 6836966 The bib of the present invention has a col1al 
46836961 Multi-use strips can be applied to a variety 
5 6836962 Disclosed is a device for producing a safe a 
66836963 A uniquely woven braid is fashioned on the ol 
76836964 This invention is an article of protective al 
8 6836965 A flexible finger system for a hockey glove. 


图 4 生成 的 CSV 文本 语 料 文件 


3.3 ”实验 设计 及 流程 

根据 3.2 节 的 实验 环境 ,设计 了 整个 实验 流程 , 主 
要 分 为 训练 库 生成 (Train ) 、 推 断 测 试 (Infer) 两 个 部 
分 ,训练 库 生 成 的 流程 图 如 图 5 所 示 ( 注 :LSA 生成 索 
引 的 方法 叫做 LSI) : 

当 模型 生成 后 ,需要 利用 训练 生成 的 模型 与 待 测 
试 的 新 的 专利 进行 对 比 ,并 得 出 其 专利 号 ,具体 的 推断 
测试 流程 见 图 6。 
3.4 实验 结果 分 析 

根据 3.3 节 图 5 和 图 6 的 实验 流程 进行 训练 ,对 
于 TF-IDF 模型 下 组 采用 D 文件 组 的 词典 长 度 作为 特 
征 数 ,对 于 LDA 模型 F 组 和 LSA 模型 G 组 的 特征 数 则 
定义 为 10。 对 于 所 提出 的 基于 深度 学 习 的 Doc2Vec 方 
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Assay/ /mts 法 ,考虑 到 性 能 优化 ,将 3 044 956 份 专利 文件 进行 分 
块 存 储 , 每 块 参与 计算 的 专利 为 327 680 份 ,对 于 


;Vec 模型 训练 时 对 每 个 专利 i 众 
mp Ss RE Doc2Vec 模型 训练 专利 文件 训 旨 练 100 次 。 具 
文件 A RE 文件 和 体 而 言 ,训练 模型 的 状态 如 下 表 2 所 示 : 
| 表 2 ”训练 后 的 文件 模型 
根据 TF-IDF 生成 二 汪清 让 
2h 它 芝 伯 组 序号 文件 类 型 文件 大 省 
1 D 文件 组 词 库 35.1MB ,词典 语料库 2G 
根据 LSI 生 成 训练 2 EE 文件 组 TFIDF 模型 文件 25.2MB 
后 文件 组 F 
3 F 文 件 组 LSA 模型 文件 150MB 
采用 不 同 的 模型 根 ; 文件 组 划 开 | 六 件 
据 C 文 和 和 D 组 文人 要 4 G 文件 LDA 模型 文件 169MB 
生成 训练 后 的 模型 人 5 H 文件 组 Doc2Vec 模型 文件 12.5GB 
根据 Doc2Vec 生成 让 ed Eg 4 
训练 后 文件 组 HH 为 了 验证 试验 的 可 靠 性 ,本 试验 随机 从 2017 年 9 
月 5 日 的 专利 数据 库 ” 中 选择 两 条 专利 进行 假设 及 
图 S 型 > > 六 下 口 Re LN 
二 人 推断 ,其 中 一 条 数据 用 于 假设 , 另 一 条 数据 用 于 推断 测 


斌 ,结果 见 表 3。 
随机 选择 的 专利 号 分 别 是 
9754858 、9755578。 对 比 TF - 
IDF 生成 文件 El LSA 生成 文 
eol 件 FI LDA 模型 生成 文件 C1、 
i “ 和 人 Doc2Vec 模型 生成 文件 Hl ,各 
二 自 的 实验 结果 见 表 4。 
对 比分 析 前 20 组 数据 中 
不 同 相 似 度 算法 得 出 的 共同 项 
情况 见 表 5。 


根据 TE-IDF 生成 
训练 后 文件 下 组 
对 比 相 似 度 


文本 了 结合 模型 生 
成 中 的 词典 文件 
组 进行 向 量化 


生成 训练 


已 


传统 方法 


传统 词 频 对 比方 法 
还 是 深度 学 习 词 频 深度 学 习 方 法 
对 比方 法 


模型 生成 训练 
后 文件 HI 


6 ”推断 测试 流程 
表 3 随机 选择 的 2017 年 9 月 5 日 的 测试 专利 的 摘要 列表 


日 期 摘要 
bs 9754858 2017 -09 -05 Provided is a gas sensor package, including: a gas sensing element; and a substrate on which the gas sensing element is 
© disposed, in which a through hole corresponding to the gas sensing element is formed. 

9755578 2017 -09 -05 Current -mode control for radio-frequency (RF) power amplifiers. In some embodiments, an RF power amplifier control 
circuit can include a sensor configured to measure a base current of a power amplifier and generate a sensed current. The 
control cireuit can further include a sensing node configured to receive a reference current and perform a current -mode op- 
eration with the sensed current to yield an error current. The control circuit can further include a control loop configured to 
generate a control signal based on the error current to adjust an operating parameter of the power amplifier. 

表 4 ”对 于 9754858 专利 文件 不 同 模 型 的 相似 度 实验 结果 
排名 El 中 专利 号 和 相似 度 组 W Fl 中 专利 号 和 相似 度 组 X G1 中 专利 号 和 相似 度 组 了 1 中 专利 号 和 相似 度 组 Z 
1 9314325 0. 6425 8853491 0. 9900 7151570 0. 9999 7874783 0.5317 
2 9131564 0.5334 8529514 0.9885 7151742 0.9999 9314325 0.5232 
3 7264711 0.5149 8601325 0.9879 7048667 0.9999 7825572 0.4780 
4 7780521 0.5017 8355788 0.9873 8011156 0. 9998 7405461 0.4686 
3 7584294 0.4914 7701684 0.9856 8804567 0.9998 8995191 0.4655 
6 7405461 0.4879 9275622 0.9851 7108194 0.9998 9091223 0.4630 
7 7825572 0.4879 8969944 0.9846 8347892 0.9998 8226232 0. 4626 
8 8226232 0.4879 9306556 0.9846 6921204 0.9998 9372451 0.4564 
9 D683561 0.4862 9258134 0.9835 D534287 0.9998 8130847 0.4479 
10 8233345 0.4846 8988869 0.9834 7923944 0.9998 7999571 0.4477 
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81. 
( 续 表 4) 

排名 El 中 专利 号 和 相似 度 组 W Fl 中 专利 号 和 相似 度 组 X G1 中 专利 号 和 相似 度 组 Y HI 中 专利 号 和 相似 度 组 Z 
11 9144108 0.4786 8330153 0.9829 9025779 0.9998 9262774 0.4470 
12 8619592 0.4734 8548142 0.9828 7517616 0.9997 7542956 0.4436 
13 9045346 0.4709 7684629 0.9823 7648748 0.9997 7017519 0.4414 
14 7874783 0.4682 B73320 0.9821 7669858 0.9997 8608654 0.4410 
15 9202784 0.4668 7437194 0.9819 8243253 0.9997 7684753 0.4405 
16 8186819 0.4655 8109960 0.9817 8715534 0.9997 8619592 0.4360 
17 8774912 0.4637 7199532 0.9817 7285144 0.9997 8819039 0.4325 
18 8799588 0.4619 7449201 0.9809 8026685 0.9997 9177210 0.4315 
19 8819039 0.4482 7960537 0.9807 8101977 0.9997 7490473 0.4147 
20 8851531 0.4446 8260273 0.9807 7130929 0.9997 8460467 0.4141 


表 5 对 于 9754858 专利 文件 不 同 模 型 的 相似 度 对 比分 析 


交集 对 比 W 组 X 组 Y 组 Z 组 
TYW 组 0 0 入 
SX 0 0 
:YY 0 

a 


我 们 发 现 W 组 (TFIDF 模型 ) 和 Z 组 (Doc2Vec 模 
型 在 前 20 项 数据 中 有 7 项 相同 ,但 是 W 组 和 X 组、Y 
继 溉 有 共同 项 。X 组 和 Y 组 进行 LSA 模型 和 LDA 模 
型 好 是 基于 TFJDF 模型 。 

中 本 文 的 研究 发 现 ,如 果 不 进行 基于 专利 领域 知识 
的 效 据 清洗 , 则 X 组 和 YY 组 会 造成 数据 没有 交集 , 即 
没有 相似 性 ,但 是 对 于 TF-IDF 模型 和 Doc2Vec 模型 的 
相 光 性 效果 比 LSA 模型 和 LDA 模型 较 好 。 

己基 于 这 样 的 假设 ,我 们 利用 第 二 份 专利 (专利 号 : 
9755578 ) 进行 测试 ,主要 测试 是 否 存在 相似 性 。 本 文 
将 售 验 数据 增 大 ,由 于 X 组 和 立 组 都 是 基于 叉 组 ,但 
是 Z 组 的 模型 不 是 基于 X 组 ,因此 进行 实验 时 , 取 W 
组 XX 组 和 YY 组 前 100 条 结果 和 2Z 组 前 20 条 数据 进行 
不 同 模型 的 相似 度 对 比分 析 , 按 照 表 4、 表 5 的 流程 对 
任意 两 组 进行 对 比 ,对比 分析 前 20 组 数据 中 不 同 相似 
度 算法 得 出 的 共同 项 情况 如 表 6 所 示 : 

表 6 对 于 9755578 专利 文件 不 同 模型 的 相似 度 对 比分 析 


交集 对 比 W 组 X 组 Y 了 组 Z 组 
W 组 1 1 3 
X 组 0 0 
Y 组 0 
Z 组 


表 5 、 表 6 的 实验 结果 进一步 验证 了 本 文 根 据 表 4 
实验 数据 推断 出 的 假设 , 即 对 专利 相似 度 进行 比较 的 
时 候 ,TF-JDF 模型 和 Doc2vVec 模型 的 相似 性 检测 要 优 
于 LSA 模型 和 LDA 模型 ,实验 结果 表明 ,如 果 不 做 基 


于 专利 领域 知识 的 数据 清洗 工作 ,基于 深度 学 习 的 
Doc2Vec 方法 所 得 出 的 结果 和 TF-IDF 相近 ,目前 行业 
采用 的 相似 度 检测 方法 主要 也 是 基于 专利 领域 知识 选 
择 好 数据 采用 TF-IDF 方法 检测 。 


4 结论 


4.1 研究 价值 

本 文 提出 了 基于 深度 学 习 的 Doc2Vec 专利 相似 度 
分 析 方 法 ,并 采用 Doc2Vec 进行 了 案例 分 析 , 并 将 结果 
与 传统 的 TF-DF 模型 LSA 模型 LDA 模型 相 比 较 , 开 
展 了 假设 与 假设 验证 实验 ,和 对 照 实 验 。 本 文 提出 的 
创新 点 是 用 深度 学 习 相关 的 模型 和 算法 来 对 比 研究 专 
利 相似 度 问题 ,基于 深度 学 习 的 Doc2Vec 专利 相似 度 
分 析 方 法 在 于 不 需要 研究 人 员 有 较 多 的 专利 领域 知 
识 ,过 去 传统 的 研究 思路 是 将 研究 对 象 进行 分 类 ,但 是 
由 于 研究 对 象 数 据 巨大 ,实体 定义 和 数据 清洗 需要 耗 
费 大 量 的 工作 时 间 ,同时 实体 定义 依赖 于 专家 系统 , 需 
要 大 量 的 具备 专利 领域 知识 的 专家 。 而 本 文 所 提出 的 
采用 深度 网 络 的 Doc2Vec 新 方法 不 需要 基于 专利 领域 
知识 进行 数据 清洗 而 得 到 了 与 传统 方法 相 类 似 的 结 
果 。 

另外 本 文 并 未 做 太 多 的 数据 定义 和 数据 清洗 , 采 

了 较 长 时 间 的 机 器 训练 ,这 样 的 目的 也 是 防止 信息 
丢失 。 在 训练 TF -IDF 模型 LSA 模型 ,LDA 模型 
Doc2Vec 模型 时 ,本 文 的 测试 专利 文件 进行 打分 时 
和 327 680 份 专利 文件 进行 对 比 ,也 为 相关 研究 提供 
男 一 种 研究 思路 ,尽管 提高 无 干预 的 机 器 训练 的 计算 
强度 和 计算 时 间 , 但 是 尽 可 能 采用 无 监督 学 习 的 模式 ， 
而 不 是 过 多 的 行业 专家 进行 数据 库 前 期 加 工 , 尽 可 能 
的 纯 计 算 机 自动 操作 ,减少 人 工 工作 量 。 
4.1 应 用 价值 

在 应 用 上 ,本 文 可 以 为 专利 地 图 的 辅助 生成 提供 


| 


中 哨 潮 
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基于 Doc2Vec 的 模型 ,传统 专利 地 图 的 生成 主要 是 基 
于 TF-IDF 模型 和 LSA 模型 ,然后 不 断 地 利用 大 量具 备 
专利 领域 知识 的 研究 人 员 进 行 词 库 划 分 (如 专利 词义 
划分 ) ,而 本 文 提供 的 思路 是 让 不 具备 专利 领域 的 研究 
人 员 进 行 专 利 分 析 , 专 利 的 词义 划分 不 是 基于 人 工 而 
是 基于 深度 学 习 生 成 的 模型 ,尽管 此 类 生成 的 模型 可 
能 结果 有 歧义 ,不 如 纯 人 工 方法 检测 的 结果 清晰 ,但 是 
可 以 极 大 地 节约 专利 代理 人 和 专利 分 析 人 员 的 精力 。 
并 且 从 专利 侵权 领域 来 说 ,由 于 Doc2Vec 模型 用 于 查 
询 的 时 候 会 通过 训练 学 习 语 义 , 因 此 在 专利 侵权 领域 
能 发 现 TFIDF 和 LSA 模型 发 现 不 了 的 侵权 案例 ,方便 
相关 企业 在 竞争 格局 和 侵权 分 析 时 ,对 侵权 专利 的 结 
果 进 行 补充 分 析 ,提升 服务 效率 。 
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Abstract: [ Purpose/significance | Patent similarity detection assists the formulation of the national innovation strat- 

egy planning macroscopically, finds hotspots in China and all over the world, and deals with patent rogues in other coun- 

tries. Microscopically, patent similarity detection provides support for patent inventors, patent examiners and patentees. 

[| Method/ process | A new method was proposed based on deep learning of Doc2Vec model, with patent corpus based on 

no data clearance of domain knowledge. Then typical patents were randomly selected to carry on similarity detection by this 

new method, and the results with traditional similarity detection models were compared. [Result/conclusion| According 

to experimental results, the new deep learning of Doc2Vec method and TFIDF model has similary results which both of the 

model ”s patent corpus all based on no data clearance of domain knowledge. The new method requires less professional skill 

in Bpecific domain knowledge, and didn ’ t require the process of data clearance. It can givesa new intelligent support tool 
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关于 在 学 术 论文 署名 中 常见 问题 或 错误 的 诚信 提醒 


衬 科 研 道德 是 从 事 科技 工作 的 基本 准则 ,是 履行 党 和 人 民 所 赋予 的 科技 创新 使 命 的 基本 要 求 。 中 国 科学 院 科 研 道德 委员 
] 常 科研 不 端 行 为 举报 中 发 现 的 突出 问题 ,总 结 当 前 学 术 论 文 团 名 中 的 常见 问题 和 错误 ,予以 提醒 ,倡导 在 科研 实 
唉 中 的 诚实 守信 行为 ,努力 营造 良好 的 科研 生态 。 
提醒 一 :论文 署名 不 完整 或 者 夹带 署名 。 应 遵循 学 术 惯 例 和 期 刊 要 求 , 坚 持 对 参与 科研 实践 过 程 并 做 出 实质 性 贡献 的 学 者 进 

行署 名 ,反对 进行 荣誉 性 .馈赠 性 和 利益 交换 性 署名 。 
;= 提醒 二 :论文 署名 排序 不 当 。 按 照 学 术 发 表 惯例 或 期 刊 要 求 ,体现 作者 对 论文 贡献 程度 ,由 论文 作者 共同 确定 署名 顺序 。 反 
: 对 在 同行 评议 后 .论文 发 表 前 ,任意 修改 署名 顺序 。 部 分 学 科 领 域 不 采取 以 贡献 度 确定 署名 排序 的 ,从 其 规定 。 
} 提醒 三 :第 一 作者 或 通讯 作者 数量 过 多 。 应 依据 作者 的 实质 性 贡献 进行 署名 ,避免 第 一 作者 或 通讯 作者 数量 过 多 ,在 同行 中 
) ”产生 歧义 。 
: 提醒 四 : 冒 用 作者 署名 。 在 学 者 不 知情 的 情况 下 , 冒 用 其 姓名 作为 署名 作者 。 论 文 发 表 前 应 让 每 一 位 作者 知情 同意 ,每 一 位 
; “作者 应 对 论文 发 表 具 有 知情 权 , 并 认可 论文 的 基本 学 术 观 点 。 
1 提醒 五 :未 利用 标注 等 手段 ,声明 应 该 公开 的 相关 利益 冲突 问题 。 应 根据 国际 惯例 和 相关 标准 ,提供 利益 冲突 的 公开 声明 。 
1 

如 资金 资助 来 源 和 研究 内 容 是 否 存在 利益 关联 等 。 
} 
1 
1 
1 
} 
1 
1 
} 
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提醒 六 :未 充分 使 用 志 ( 致 ) 谢 方式 表现 其 他 参与 科研 工作 人 员 的 贡献 ,造成 知识 产权 纠纷 和 科研 道德 纠纷 。 

提醒 七 :未 正确 署名 所 属 机 构 。 作 者 机 构 的 署名 应 为 论文 工作 主要 完成 机 构 的 名 称 ,反对 因 作 者 所 属 机 构 变化 ,而 不 恰当 地 
使 用 变更 后 的 机 构 名 称 。 

提醒 八 :作者 不 使 用 其 所 属 单位 的 联系 方式 作为 自己 的 联系 方式 。 不 建议 使 用 公众 邮箱 等 社会 通讯 方式 作为 作者 的 联系 方式 。 

提醒 九 :未 引用 重要 文献 。 作 者 应 全 面 系统 了 解 本 科研 工作 的 前 人 工作 基础 和 直接 相关 的 重要 文献 ,并 确信 对 本 领域 代表 性 
文献 没有 遗漏 。 

提醒 十 :在 论文 发 表 后 ,如 果 发 现 文章 的 缺陷 或 相关 研究 过 程 中 有 违背 科研 规范 的 行为 ,作者 应 主动 声明 更 正 或 要 求 撤回 稿件 。 

院 属 各 单位 应 根据 以 上 提醒 ,结合 本 单位 学 科 特 点 和 学 术 惯 例 , 对 科研 人 员 进 行 必要 的 教育 培训 ,让 每 一 位 科研 工作 者 对 学 术 论 
文 署名 保持 高 度 的 责任 心 ,珍惜 学 术 荣 誉 .抵制 学 术 不 端 行为 ,将 科研 诚信 贯穿 于 学 术 生涯 始终 。 
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